注册好了师姐。上次这篇文章的数据获得性部分提到The raw genomic sequencing data from the GTEx project V8 are available in the database of dbGaP with accession number phs000424.v8.p2 [https://www.ncbi.nlm.nih.gov/gap/]. 似乎dbGaP中phs000424的原始数据需要申请,申请条件还蛮苛刻的。然后我试了一下后面的数据,比如The gene expression data are available for download from the GTEx portal:https://www.gtexportal.org/home/downloads/adult-gtex/bulk_tissue_expression. The time information of 838 individuals in the GTEx cohort is available from Zenodo at https://doi.org/10.5281/zenodo.7215362.感觉这两个网站下载的基因表达数据、样本注释信息和时间信息与文章代码可获得性部分给的其中第一个R代码0_0_genotype.R里导入的数据差别还挺大的,只有代码可获得性部分的GitHub中给出的split_pos基因位置信息是一模一样的。而且这个R脚本好像是它处理数据的第一步,不知道为什么它导入的数据像是之前已经处理过的,跟网站上下载的不一样。是不是我哪里忽略了过程啊,还是跟dbGaP中phs000424的原始数据有关?
文献里数据和代码可获得性中提到的:
- dbGaP中phs000424的原始数据(即the GTEx project V8):需要申请
- 基因表达数据:可在GTEx portal下载,有GTEx_Analysis_2017-06-05_v8_RNASeQCv1.1.9_gene_reads.gct等
- 时间信息:可在zenode下载,有Adipose-Subcutaneous.txt等
- GWAS summary statistics
- summary statistics of rhyQTLs:在Supplementary Data 2.
- Github:包括0_0_genotype.R等代码、基因位置信息(split_pos)、Supplementary Data 2和Supplementary Data 6
0_0_genotype.R里用到的:
- 时间信息('GTEx_donor_time_science.txt'):未找到
- 基因位置信息(split_pos):能找到
- SNV文件头('head_sub.txt'):未找到
- 表达数据('00_data/CPM_covariate_remove/', tissue, '.txt'):即某个组织的表达数据,但好像已经过处理:未找到
- 似乎是样本的全基因组测序变异数据(结合基因位置信息可得到样本的SNV):未找到。GTEx_Analysis_2017-06-05_v8_WholeGenomeSeq_838Indiv_Analysis_Freeze.SHAPEIT2_phased.MAF01.hwe_MAF059.vcf.gz ,该文件可能包含:
- 变异数据:838个个体的全基因组测序变异(SNP、Indel等),经过质控(MAF≥1%、HWE过滤)。
- 单倍型信息:已通过SHAPEIT2进行定相( phased),即每个样本的等位基因按染色体单倍型排列。
- 元数据:如染色体位置、参考/替代等位基因、基因型质量分数等(标准VCF字段)。
导入时间信息'GTEx_donor_time_science.txt'
导入基因位置信息(dir, cat, "split_pos/", pos_file))
#导入SNV文件头(dir, 'head_sub.txt'))
#导入表达数据(dir,'00_data/CPM_covariate_remove/', tissue, '.txt'), header = T)
你提到的四个数据文件(时间信息、基因位置信息、SNV文件头、表达数据)通常是研究中使用到的中间数据或预处理数据,而不是直接从公共数据库下载的原始数据。这些文件可能是研究者根据特定需求从原始数据中提取或处理得到的。不过,你可以通过以下方式尝试获取这些数据或类似的替代数据:
GTEx_Analysis_v8_Annotations_SampleAttributesDS.txt
列名 | 描述 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
SAMPID | 样本ID,唯一标识每个样本 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMATSSCR | 组织来源描述 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMCENTER | 测序中心 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMTS | 组织类型 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMTSD | 组织详细描述 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMUBRID | 唯一的生物样本ID | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMTSISCH | 组织采集方案 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMTSPAX | PAXgene管的使用情况 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMNABTCH | 核酸提取批次 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMNABTCHT | 核酸提取批次类型 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMNABTCHD | 核酸提取批次描述 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMGEBTCH | 基因组提取批次 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMGEBTCHD | 基因组提取批次描述 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMGEBTCHT | 基因组提取批次类型 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMAFRZE | 冷冻方法 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMGTC | 基因分型芯片类型 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SME2MPRT | Exome测序平台 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMCHMPRS | ChIP-seq平台 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMNTRART | 核酸提取方法 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMNUMGPS | 样本组数 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMMAPRT | 测序平台 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMEXNCRT | Exome测序中心 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SM550NRM | SNP Array标准化方法 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMGNSDTC | 基因组测序日期 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMUNMPRT | Unmapped Reads平台 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SM350NRM | SNP Array标准化方法(350) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMRDLGTH | RNA测序读长 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMMNCPB | 最小覆盖深度 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SME1MMRT | Exome测序方法 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMSFLGTH | 样本长度 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMESTLBS | 样本重量(磅) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMMPPD | 样本处理日期 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMNTERRT | 样本运输方式 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMRRNANM | RNA质量控制指标 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMRDTTL | RNA质量控制总分 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMVQCFL | 质量控制标志 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMMNCV | 核心变异 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMTRSCPT | 测序协议 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMMPPDPR | 样本处理日期(处理后) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMCGLGTH | 样本长度(处理后) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMGAPPCT | 基因组覆盖率 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMUNPDRD | 未映射读取率 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMNTRNRT | 核酸提取率 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMMPUNRT | 样本处理率 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMEXPEFF | Exome测序效率 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMMPPDUN | 样本处理单位 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SME2MMRT | Exome测序方法(第二次) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SME2ANTI | 抗体名称 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMALTALG | 测序算法 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SME2SNSE | Exome测序灵敏度 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMMFLGTH | 样本长度(第二次) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SME1ANTI | 抗体名称(第一次) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMSPLTRD | 样本处理方法 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMBSMMRT | 测序方法(Bisulfite) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SME1SNSE | Exome测序灵敏度(第一次) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SME1PCTS | Exome测序覆盖率(第一次) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMRRNART | RNA质量控制指标(第二次) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SME1MPRT | Exome测序平台(第一次) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMNUM5CD | 样本编号 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SMDPMPRT | 测序平台(第二次) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
SME2PCTS | Exome测序覆盖率(第二次) |
SAMPID | SMATSSCR | SMCENTER | SMPTHNTS | SMRIN | SMTS | SMTSD | SMUBRID | SMTSISCH | SMTSPAX | SMNABTCH | SMNABTCHT | SMNABTCHD | SMGEBTCH | SMGEBTCHD | SMGEBTCHT | SMAFRZE | SMGTC | SME2MPRT | SMCHMPRS | SMNTRART | SMNUMGPS | SMMAPRT | SMEXNCRT | SM550NRM | SMGNSDTC | SMUNMPRT | SM350NRM | SMRDLGTH | SMMNCPB | SME1MMRT | SMSFLGTH | SMESTLBS | SMMPPD | SMNTERRT | SMRRNANM | SMRDTTL | SMVQCFL | SMMNCV | SMTRSCPT | SMMPPDPR | SMCGLGTH | SMGAPPCT | SMUNPDRD | SMNTRNRT | SMMPUNRT | SMEXPEFF | SMMPPDUN | SME2MMRT | SME2ANTI | SMALTALG | SME2SNSE | SMMFLGTH | SME1ANTI | SMSPLTRD | SMBSMMRT | SME1SNSE | SME1PCTS | SMRRNART | SME1MPRT | SMNUM5CD | SMDPMPRT | SME2PCTS | |||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
GTEX-1117F-0003-SM-58Q7G | B1 | Blood | Whole Blood | 0013756 | 1188 | BP-38516 | 05/02/2013 | LCSET-4574 | DNA isolation_Whole Blood_QIAGEN Puregene (Manual) | 01/15/2014 | Standard Exome Sequencing v3 (ICE) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
GTEX-1117F-0003-SM-5DWSB | B1 | Blood | Whole Blood | 0013756 | 1188 | BP-38516 | 05/02/2013 | GTEx_OM25_Dec_01 | Illumina OMNI SNP Array | 01/28/2014 | OMNI | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
GTEX-1117F-0003-SM-6WBT7 | B1 | Blood | Whole Blood | 0013756 | 1188 | BP-38516 | 05/02/2013 | LCSET-6056 | PCR+ 30x Coverage WGS v2 (HiSeqX) | 09/20/2014 | WGS | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
GTEX-1117F-0011-R10a-SM-AHZ7F | B1, A1 | Brain | Brain - Frontal Cortex (BA9) | 0009834 | 1193 | ChIP-Seq | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
GTEX-1117F-0011-R10b-SM-CYKQ8 | B1, A1 | 7.2 | Brain | Brain - Frontal Cortex (BA9) | 0009834 | 1193 | BP-42319 | RNA isolation_PAXgene Tissue miRNA | 08/14/2013 | RIP-Seq | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
GTEX-1117F-0226-SM-5GZZ7 | 0 | B1 | 2 pieces, ~15% vessel stroma, rep delineated | 6.8 | Adipose Tissue | Adipose - Subcutaneous | 0002190 | 1214 | 1125 | BP-43693 | 09/17/2013 | LCSET-4804 | RNA Extraction from Paxgene-derived Lysate Plate Based | 03/05/2014 | TruSeq.v1 | RNASEQ | 0.986026 | 345562 | 0.966793 | 0.990383 | 0.756726 | 23548 | 1 | 76 | 0.00240323 | 136 | 0 | 6.68332e+07 | 0.0329192 | 209558 | 6.74822e+07 | 8.79766e+06 | 23575 | 3.3158e+07 | 0 | 0.210067 | 0.990383 | 0.749449 | 6.68332e+07 | 0.00391915 | 1.44627e+07 | 8.9149e+06 | 1.45756e+07 | 144 | 1.46488e+07 | 1.19993e+07 | 0.00315785 | 1.46695e+07 | 50.0354 | 0.00310538 | 0.99474 | 0 | 50.1944 | ||||||||||||||
GTEX-1117F-0426-SM-5EGHI | 0 | B1 | 2 pieces, !5% fibrous connective tissue, delineated (rep) | 7.1 | Muscle | Muscle - Skeletal | 0011907 | 1220 | 1119 | BP-43495 | 09/12/2013 | LCSET-4764 | RNA Extraction from Paxgene-derived Lysate Plate Based | 02/09/2014 | TruSeq.v1 | RNASEQ | 0.985786 | 145441 | 0.978816 | 0.990413 | 0.838961 | 20246 | 1 | 76 | 0.00241283 | 137 | 0 | 5.99636e+07 | 0.0209516 | 423484 | 6.05441e+07 | 9.60146e+06 | 20259 | 2.97858e+07 | 0 | 0.139855 | 0.990413 | 0.830918 | 5.99636e+07 | 0.00553754 | 1.31545e+07 | 8.38344e+06 | 1.31258e+07 | 139 | 1.31915e+07 | 1.15502e+07 | 0.00396788 | 1.33405e+07 | 50.2809 | 0.00699464 | 0.995041 | 0 | 49.9455 |
1. 时间信息(GTEx_donor_time_science.txt
)
- 来源:GTEx 项目提供了样本的捐赠者信息,包括样本采集时间等。
- 下载:你可以从 GTEx 数据门户下载相关的样本信息文件。
- 网址:GTEx Portal
- 步骤:
- 在首页的导航栏中选择 "Data Downloads"。
- 查找与样本信息相关的文件,例如 "Sample Attributes" 或 "Donor Information"。
- 下载包含时间信息的文件。
2. 基因位置信息(split_pos/
文件夹中的文件)
- 来源:这些文件可能是研究者根据基因组注释数据(如 GENCODE 或 Ensembl)提取的基因位置信息。
- 下载:你可以从以下数据库下载基因组注释数据,并根据需要提取基因位置信息:
3. SNV 文件头(head_sub.txt
)
- 来源:这可能是从 VCF 文件中提取的列名(即文件头信息)。
- 下载:如果你有对应的 VCF 文件,可以直接从中提取文件头信息。
- 示例代码:
vcf_file <- "path/to/your/vcf_file.vcf" head_info <- readLines(vcf_file, n = 1) # 读取第一行 writeLines(head_info, "head_sub.txt") # 保存到文件
- 示例代码:
4. 表达数据(00_data/CPM_covariate_remove/
文件夹中的文件)
- 来源:这些文件可能是经过预处理的基因表达数据,例如去除了协变量影响后的表达数据。
- 下载:你可以从 GTEx 数据门户下载原始的基因表达数据,并根据需要进行预处理。
- 网址:GTEx Portal
- 步骤:
- 在首页的导航栏中选择 "Data Downloads"。
- 下载 "Bulk Tissue Expression" 数据。
- 使用脚本或工具进行预处理,例如去除协变量影响。
示例代码
以下是一个示例代码,展示如何从 GTEx 数据门户下载和处理数据:
# 加载必要的包
library(data.table)
# 定义文件路径
dir <- "/path/to/your/data/"
tissue <- "Adipose-Subcutaneous"
pos_file <- "HLA_split_pos_aa"
# 下载时间信息
time_file <- "GTEx_donor_time_science.txt"
download.file("https://gtexportal.org/static/datasets/sampleAttributes/GTEx_v8_sample_attributes.tsv",
destfile = paste0(dir, time_file))
# 下载基因位置信息
pos_file_url <- "https://example.com/path/to/split_pos/HLA_split_pos_aa" # 替换为实际的下载链接
download.file(pos_file_url, destfile = paste0(dir, "split_pos/", pos_file))
# 下载 SNV 文件头
head_file <- "head_sub.txt"
download.file("https://example.com/path/to/head_sub.txt", destfile = paste0(dir, head_file))
# 下载表达数据
expression_file <- paste0(tissue, ".txt")
download.file("https://gtexportal.org/static/datasets/expression/GTEx_Analysis_2017-06-05_v8_RNASeQCv1.1.9_gene_reads.gct",
destfile = paste0(dir, "00_data/CPM_covariate_remove/", expression_file))
# 读取表达数据
expression_data <- fread(paste0(dir, "00_data/CPM_covariate_remove/", expression_file), skip = 2)
总结
- 时间信息:从 GTEx 数据门户下载样本信息文件。
- 基因位置信息:从 GENCODE 或 Ensembl 下载基因组注释数据并提取。
- SNV 文件头:从对应的 VCF 文件中提取。
- 表达数据:从 GTEx 数据门户下载原始表达数据并进行预处理。
如果你有更多问题或需要进一步的帮助,请告诉我!
所需数据
图1a的分析主要涉及以下几个步骤:数据检索、建立遗传变异-基因对、评估基因节律性、评估基因节律性差异。以下是完成这些步骤所需的数据:
1. 基因型数据(Genotype Data)
- 来源:GTEx项目(Genotype Tissue Expression Project)。
- 数据文件:
GTEx_Analysis_2017-06-05_v8_WholeGenomeSeq_838Indiv_Analysis_Freeze.SHAPEIT2_phased.MAF01.hwe_MAF059.vcf.gz
:包含838个个体的全基因组测序数据,经过SHAPEIT2相位分析,MAF(Minor Allele Frequency)过滤后的VCF文件。
- 用途:用于提取特定基因区域内的单核苷酸变异(SNV),并根据基因型对样本进行分组。
- dbGaP(accession phs000424)不是完全开放的,属于受控访问(controlled access)数据集。这意味着研究人员不能直接下载数据,而是需要申请访问权限。申请流程如下:
-
申请资格:只有符合条件的研究人员(如机构的永久员工、相当于 tenure-track 教授或高级科学家)可以申请。实验室工作人员和研究生等不能直接提交申请,但可以在有资格的研究人员的监督下使用数据。
-
提交申请:研究人员需在 dbGaP 网站提交数据访问请求,包括研究计划和机构信息等,证明研究目的合理且符合伦理与隐私保护要求。
-
机构审核:申请提交后,会自动发送给研究人员所在机构的授权官员(Signing Official, SO)进行审核、批准并签字。
-
数据访问委员会(DAC)审核:申请经机构审核后,会提交至 NIH 的数据访问委员会进行最终审查。如果申请通过,研究人员可在一年内访问数据,之后可申请续期。
2. 基因表达数据(Gene Expression Data)
- 来源:GTEx项目。
- 数据文件:
00_data/CPM_covariate_remove/{tissue}.txt
:每个组织的基因表达数据,经过协变量校正后的每百万计数(CPM)数据。
- 用途:用于评估基因在不同时间点的表达水平,并结合基因型数据评估基因的节律性。
3. 时间信息(Time Information)
- 来源:GTEx项目。
- 数据文件:
GTEx_donor_time_science.txt
:包含供体的内部昼夜节律相位信息,而不是样本采集的死后时间。
- 用途:用于确定样本在24小时周期内的具体时间点,以便进行节律性分析。
4. 基因位置信息(Gene Position Information)
- 来源:GTEx项目或GENCODE注释。
- 数据文件:
split_pos/{pos_file}
:包含基因的转录起始位点(TSS)及其上下游1Mb区域的基因位置信息。
- 用途:用于确定每个基因的顺式(cis)遗传变异区域,即TSS上下游1Mb范围内的SNV。
5. 基因注释数据(Gene Annotation Data)
- 来源:GENCODE注释。
- 数据文件:
gencode.v26.GRCh38.genes.annot
:包含基因的注释信息,如基因名称、染色体位置等。
- 用途:用于将基因ID与基因名称进行匹配,并在后续分析中提供基因的功能注释。
6. SNV文件头信息(SNV Header Information)
- 来源:GTEx项目。
- 数据文件:
head_sub.txt
:包含VCF文件的表头信息,用于正确解析VCF文件中的列名。
- 用途:确保从VCF文件中提取SNV数据时能够正确匹配样本名称和基因型信息。
7. 日志目录和输出目录
- 用途:用于存储分析过程中生成的日志文件和结果文件。
- 路径:
- 日志目录:
Log/
,用于记录分析的开始和结束时间等信息。 - 输出目录:
00_rQTL_mapping/00_Genotype/
,用于存储中间结果和最终的基因型数据。
- 日志目录:
总结
完成图1a的分析需要以下数据:
- GTEx项目的全基因组测序数据(VCF格式):用于提取SNV。
- 基因表达数据(CPM格式):用于评估基因表达的节律性。
- 时间信息(供体的昼夜节律相位):用于确定样本的时间点。
- 基因位置信息(TSS及其上下游1Mb区域):用于确定顺式遗传变异区域。
- 基因注释数据:用于基因的功能注释。
- SNV文件头信息:用于解析VCF文件。
这些数据结合上述代码中的分析流程,可以完成从数据预处理到节律性评估的完整分析。